當煉金工房需要儀表板 - 可觀測性導論 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 23

AI & Data

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列第 23 篇

當煉金工房需要儀表板 - 可觀測性導論

17th鐵人賽

tony123344333

團隊組隊最大障礙：隊名

2025-10-07 20:20:06

217 瀏覽

分享至

半夜三點的惡夢

想像這個場景：凌晨 3 點，你的手機突然響起。睡眼惺忪地接起電話，對面傳來焦急的聲音：「我們的 AI 客服壞了！客戶一直在抱怨！」
你猛然驚醒，打開筆電，然後...愣住了。
系統看起來一切正常：伺服器在運作、API 有回應、資料庫連線正常。但客戶確實在抱怨 AI 給出奇怪的答案。
問題是：你完全不知道哪裡出錯了。

賭徒的反應：「呃...要不要試試看重新部署？」「清一下快取？」「重開機看看？」
煉金師的反應：打開監控面板，看了三分鐘後說：「找到了，是 RAG 檢索到過期的文件，兩分鐘就能修好。」

這就是有沒有「可觀測性 (Observability)」的差別。

AI 系統：比你想的更難掌控

還記得我們在 Day 3-5 聊過的 Context Rot 嗎？AI 的記憶會腐化。Day 7 的 RAG 系統？檢索可能出錯。Day 14-16 的 Multi-Agent 協作？任何一個 Agent 出問題都可能影響整體。

但這些問題有個共同特點：它們不會大聲告訴你「我壞了」。

傳統軟體就像汽車引擎，壞了會亮警示燈。但 AI 系統更像是駕駛的大腦——即使所有技術指標都正常，它仍可能做出錯誤判斷，而且不會有任何警報響起。

更糟的是：
同樣的輸入可能產生不同輸出：今天回答正確，明天就不一定
問題可能潛伏很久：幾乎所有 AI 模型都會隨時間退化。去年訓練的完美模型，今年可能就開始出錯。
影響範圍難以評估：到底影響了多少使用者？損失多少錢？

最怕遇到這件事「我們的模型可能壞掉好幾個月都沒人知道，直到下游使用者開始抱怨。」

可觀測性的三個好朋友

想像你的煉金工房需要三種工具來掌握狀況：

Logs (日誌)：實驗記錄本
記錄每次煉製的細節：誰問了什麼、AI 回答了什麼、用了哪些材料 (Token)、花了多少時間。
就像煉金師的實驗記錄本，讓你可以回頭查看「當時到底發生了什麼事」。
Metrics (指標)：溫度計與壓力表
即時監控系統的健康狀況：回應速度、錯誤率、使用者滿意度、成本消耗。
就像工房的溫度計，讓你一眼就知道「現在一切正常嗎」。
Traces (追蹤)：完整的煉製軌跡
追蹤一個請求從頭到尾的完整路徑，特別在 Multi-Agent 系統中超級重要。
使用者問題 → Router Agent → Research Agent → Analysis Agent → Writer Agent
哪個環節卡住了？哪裡最耗時？Traces 讓你一目了然。

三個朋友怎麼合作？

想像這個情境：你的 AI 系統突然變慢了。

Metrics 告訴你：「回應時間從 2 秒變成 8 秒了！」（發現問題）
Traces 顯示：「瓶頸在 RAG 檢索那一步」（定位位置）
Logs 解釋：「因為知識庫新增了 50 萬筆資料，但沒有優化索引」（找到原因）

三個好朋友聯手，讓你從「不知道哪裡出錯」變成「3 分鐘定位問題」。

值得投資嗎？

你可能會想：「建立這些監控系統...不會很貴嗎？」
其實剛好相反。想想看：

沒有監控時：

半夜被叫醒，瞎猜問題在哪
花 3 小時試各種方法
不確定影響了多少使用者
不知道損失了多少錢

有監控時：

系統自動告警（甚至在使用者發現前）
3 分鐘定位問題
10 分鐘修好
繼續睡覺

更重要的是，記得 Day 22 我們聊過成本優化嗎？如果你連成本都看不到，怎麼優化？
可觀測性不只是「避免出錯」，更是「持續改進」的基礎。

從黑盒子到透明工房

當你的 AI 系統從個人玩具變成企業產品時，可觀測性就從「最好有」變成「必要」。

明天我們要深入第一個好朋友：Logs (日誌)。我們會聊聊工房的實驗記錄本要怎麼寫，才能在關鍵時刻派上用場。
畢竟，沒有記錄的實驗，就像沒發生過一樣。

煉金師的帳本 - AI 成本優化策略

煉金師的實驗記錄本 - Logging

系列文

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。共 30 篇

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

不只是反覆 TRY AGAIN，煉金師懂得調配試煉的秘方。系列 第 23 篇